Prosper Loan Exploration by Zhang Lijuan

该数据集包括了2005-11到2014-03期间113,937 项贷款,每项贷款有 81 个变量。

## [1] 113937     81
## 'data.frame':    113937 obs. of  81 variables:
##  $ ListingKey                         : Factor w/ 113066 levels "00003546482094282EF90E5",..: 7180 7193 6647 6669 6686 6689 6699 6706 6687 6687 ...
##  $ ListingNumber                      : int  193129 1209647 81716 658116 909464 1074836 750899 768193 1023355 1023355 ...
##  $ ListingCreationDate                : Factor w/ 113064 levels "2005-11-09 20:44:28.847000000",..: 14184 111894 6429 64760 85967 100310 72556 74019 97834 97834 ...
##  $ CreditGrade                        : Factor w/ 9 levels "","A","AA","B",..: 5 1 8 1 1 1 1 1 1 1 ...
##  $ Term                               : int  36 36 36 36 36 60 36 36 36 36 ...
##  $ LoanStatus                         : Factor w/ 12 levels "Cancelled","Chargedoff",..: 3 4 3 4 4 4 4 4 4 4 ...
##  $ ClosedDate                         : Factor w/ 2803 levels "","2005-11-25 00:00:00",..: 1138 1 1263 1 1 1 1 1 1 1 ...
##  $ BorrowerAPR                        : num  0.165 0.12 0.283 0.125 0.246 ...
##  $ BorrowerRate                       : num  0.158 0.092 0.275 0.0974 0.2085 ...
##  $ LenderYield                        : num  0.138 0.082 0.24 0.0874 0.1985 ...
##  $ EstimatedEffectiveYield            : num  NA 0.0796 NA 0.0849 0.1832 ...
##  $ EstimatedLoss                      : num  NA 0.0249 NA 0.0249 0.0925 ...
##  $ EstimatedReturn                    : num  NA 0.0547 NA 0.06 0.0907 ...
##  $ ProsperRating..numeric.            : int  NA 6 NA 6 3 5 2 4 7 7 ...
##  $ ProsperRating..Alpha.              : Factor w/ 8 levels "","A","AA","B",..: 1 2 1 2 6 4 7 5 3 3 ...
##  $ ProsperScore                       : num  NA 7 NA 9 4 10 2 4 9 11 ...
##  $ ListingCategory..numeric.          : int  0 2 0 16 2 1 1 2 7 7 ...
##  $ BorrowerState                      : Factor w/ 52 levels "","AK","AL","AR",..: 7 7 12 12 25 34 18 6 16 16 ...
##  $ Occupation                         : Factor w/ 68 levels "","Accountant/CPA",..: 37 43 37 52 21 43 50 29 24 24 ...
##  $ EmploymentStatus                   : Factor w/ 9 levels "","Employed",..: 9 2 4 2 2 2 2 2 2 2 ...
##  $ EmploymentStatusDuration           : int  2 44 NA 113 44 82 172 103 269 269 ...
##  $ IsBorrowerHomeowner                : Factor w/ 2 levels "False","True": 2 1 1 2 2 2 1 1 2 2 ...
##  $ CurrentlyInGroup                   : Factor w/ 2 levels "False","True": 2 1 2 1 1 1 1 1 1 1 ...
##  $ GroupKey                           : Factor w/ 707 levels "","00343376901312423168731",..: 1 1 335 1 1 1 1 1 1 1 ...
##  $ DateCreditPulled                   : Factor w/ 112992 levels "2005-11-09 00:30:04.487000000",..: 14347 111883 6446 64724 85857 100382 72500 73937 97888 97888 ...
##  $ CreditScoreRangeLower              : int  640 680 480 800 680 740 680 700 820 820 ...
##  $ CreditScoreRangeUpper              : int  659 699 499 819 699 759 699 719 839 839 ...
##  $ FirstRecordedCreditLine            : Factor w/ 11586 levels "","1947-08-24 00:00:00",..: 8639 6617 8927 2247 9498 497 8265 7685 5543 5543 ...
##  $ CurrentCreditLines                 : int  5 14 NA 5 19 21 10 6 17 17 ...
##  $ OpenCreditLines                    : int  4 14 NA 5 19 17 7 6 16 16 ...
##  $ TotalCreditLinespast7years         : int  12 29 3 29 49 49 20 10 32 32 ...
##  $ OpenRevolvingAccounts              : int  1 13 0 7 6 13 6 5 12 12 ...
##  $ OpenRevolvingMonthlyPayment        : num  24 389 0 115 220 1410 214 101 219 219 ...
##  $ InquiriesLast6Months               : int  3 3 0 0 1 0 0 3 1 1 ...
##  $ TotalInquiries                     : num  3 5 1 1 9 2 0 16 6 6 ...
##  $ CurrentDelinquencies               : int  2 0 1 4 0 0 0 0 0 0 ...
##  $ AmountDelinquent                   : num  472 0 NA 10056 0 ...
##  $ DelinquenciesLast7Years            : int  4 0 0 14 0 0 0 0 0 0 ...
##  $ PublicRecordsLast10Years           : int  0 1 0 0 0 0 0 1 0 0 ...
##  $ PublicRecordsLast12Months          : int  0 0 NA 0 0 0 0 0 0 0 ...
##  $ RevolvingCreditBalance             : num  0 3989 NA 1444 6193 ...
##  $ BankcardUtilization                : num  0 0.21 NA 0.04 0.81 0.39 0.72 0.13 0.11 0.11 ...
##  $ AvailableBankcardCredit            : num  1500 10266 NA 30754 695 ...
##  $ TotalTrades                        : num  11 29 NA 26 39 47 16 10 29 29 ...
##  $ TradesNeverDelinquent..percentage. : num  0.81 1 NA 0.76 0.95 1 0.68 0.8 1 1 ...
##  $ TradesOpenedLast6Months            : num  0 2 NA 0 2 0 0 0 1 1 ...
##  $ DebtToIncomeRatio                  : num  0.17 0.18 0.06 0.15 0.26 0.36 0.27 0.24 0.25 0.25 ...
##  $ IncomeRange                        : Factor w/ 8 levels "$0","$1-24,999",..: 4 5 7 4 3 3 4 4 4 4 ...
##  $ IncomeVerifiable                   : Factor w/ 2 levels "False","True": 2 2 2 2 2 2 2 2 2 2 ...
##  $ StatedMonthlyIncome                : num  3083 6125 2083 2875 9583 ...
##  $ LoanKey                            : Factor w/ 113066 levels "00003683605746079487FF7",..: 100337 69837 46303 70776 71387 86505 91250 5425 908 908 ...
##  $ TotalProsperLoans                  : int  NA NA NA NA 1 NA NA NA NA NA ...
##  $ TotalProsperPaymentsBilled         : int  NA NA NA NA 11 NA NA NA NA NA ...
##  $ OnTimeProsperPayments              : int  NA NA NA NA 11 NA NA NA NA NA ...
##  $ ProsperPaymentsLessThanOneMonthLate: int  NA NA NA NA 0 NA NA NA NA NA ...
##  $ ProsperPaymentsOneMonthPlusLate    : int  NA NA NA NA 0 NA NA NA NA NA ...
##  $ ProsperPrincipalBorrowed           : num  NA NA NA NA 11000 NA NA NA NA NA ...
##  $ ProsperPrincipalOutstanding        : num  NA NA NA NA 9948 ...
##  $ ScorexChangeAtTimeOfListing        : int  NA NA NA NA NA NA NA NA NA NA ...
##  $ LoanCurrentDaysDelinquent          : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ LoanFirstDefaultedCycleNumber      : int  NA NA NA NA NA NA NA NA NA NA ...
##  $ LoanMonthsSinceOrigination         : int  78 0 86 16 6 3 11 10 3 3 ...
##  $ LoanNumber                         : int  19141 134815 6466 77296 102670 123257 88353 90051 121268 121268 ...
##  $ LoanOriginalAmount                 : int  9425 10000 3001 10000 15000 15000 3000 10000 10000 10000 ...
##  $ LoanOriginationDate                : Factor w/ 1873 levels "2005-11-15 00:00:00",..: 426 1866 260 1535 1757 1821 1649 1666 1813 1813 ...
##  $ LoanOriginationQuarter             : Factor w/ 33 levels "Q1 2006","Q1 2007",..: 18 8 2 32 24 33 16 16 33 33 ...
##  $ MemberKey                          : Factor w/ 90831 levels "00003397697413387CAF966",..: 11071 10302 33781 54939 19465 48037 60448 40951 26129 26129 ...
##  $ MonthlyLoanPayment                 : num  330 319 123 321 564 ...
##  $ LP_CustomerPayments                : num  11396 0 4187 5143 2820 ...
##  $ LP_CustomerPrincipalPayments       : num  9425 0 3001 4091 1563 ...
##  $ LP_InterestandFees                 : num  1971 0 1186 1052 1257 ...
##  $ LP_ServiceFees                     : num  -133.2 0 -24.2 -108 -60.3 ...
##  $ LP_CollectionFees                  : num  0 0 0 0 0 0 0 0 0 0 ...
##  $ LP_GrossPrincipalLoss              : num  0 0 0 0 0 0 0 0 0 0 ...
##  $ LP_NetPrincipalLoss                : num  0 0 0 0 0 0 0 0 0 0 ...
##  $ LP_NonPrincipalRecoverypayments    : num  0 0 0 0 0 0 0 0 0 0 ...
##  $ PercentFunded                      : num  1 1 1 1 1 1 1 1 1 1 ...
##  $ Recommendations                    : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ InvestmentFromFriendsCount         : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ InvestmentFromFriendsAmount        : num  0 0 0 0 0 0 0 0 0 0 ...
##  $ Investors                          : int  258 1 41 158 20 1 1 1 1 1 ...
##                    ListingKey     ListingNumber    
##  17A93590655669644DB4C06:     6   Min.   :      4  
##  349D3587495831350F0F648:     4   1st Qu.: 400919  
##  47C1359638497431975670B:     4   Median : 600554  
##  8474358854651984137201C:     4   Mean   : 627886  
##  DE8535960513435199406CE:     4   3rd Qu.: 892634  
##  04C13599434217079754AEE:     3   Max.   :1255725  
##  (Other)                :113912                    
##                     ListingCreationDate  CreditGrade         Term      
##  2013-10-02 17:20:16.550000000:     6          :84984   Min.   :12.00  
##  2013-08-28 20:31:41.107000000:     4   C      : 5649   1st Qu.:36.00  
##  2013-09-08 09:27:44.853000000:     4   D      : 5153   Median :36.00  
##  2013-12-06 05:43:13.830000000:     4   B      : 4389   Mean   :40.83  
##  2013-12-06 11:44:58.283000000:     4   AA     : 3509   3rd Qu.:36.00  
##  2013-08-21 07:25:22.360000000:     3   HR     : 3508   Max.   :60.00  
##  (Other)                      :113912   (Other): 6745                  
##                  LoanStatus                  ClosedDate   
##  Current              :56576                      :58848  
##  Completed            :38074   2014-03-04 00:00:00:  105  
##  Chargedoff           :11992   2014-02-19 00:00:00:  100  
##  Defaulted            : 5018   2014-02-11 00:00:00:   92  
##  Past Due (1-15 days) :  806   2012-10-30 00:00:00:   81  
##  Past Due (31-60 days):  363   2013-02-26 00:00:00:   78  
##  (Other)              : 1108   (Other)            :54633  
##   BorrowerAPR       BorrowerRate     LenderYield     
##  Min.   :0.00653   Min.   :0.0000   Min.   :-0.0100  
##  1st Qu.:0.15629   1st Qu.:0.1340   1st Qu.: 0.1242  
##  Median :0.20976   Median :0.1840   Median : 0.1730  
##  Mean   :0.21883   Mean   :0.1928   Mean   : 0.1827  
##  3rd Qu.:0.28381   3rd Qu.:0.2500   3rd Qu.: 0.2400  
##  Max.   :0.51229   Max.   :0.4975   Max.   : 0.4925  
##  NA's   :25                                          
##  EstimatedEffectiveYield EstimatedLoss   EstimatedReturn 
##  Min.   :-0.183          Min.   :0.005   Min.   :-0.183  
##  1st Qu.: 0.116          1st Qu.:0.042   1st Qu.: 0.074  
##  Median : 0.162          Median :0.072   Median : 0.092  
##  Mean   : 0.169          Mean   :0.080   Mean   : 0.096  
##  3rd Qu.: 0.224          3rd Qu.:0.112   3rd Qu.: 0.117  
##  Max.   : 0.320          Max.   :0.366   Max.   : 0.284  
##  NA's   :29084           NA's   :29084   NA's   :29084   
##  ProsperRating..numeric. ProsperRating..Alpha.  ProsperScore  
##  Min.   :1.000                  :29084         Min.   : 1.00  
##  1st Qu.:3.000           C      :18345         1st Qu.: 4.00  
##  Median :4.000           B      :15581         Median : 6.00  
##  Mean   :4.072           A      :14551         Mean   : 5.95  
##  3rd Qu.:5.000           D      :14274         3rd Qu.: 8.00  
##  Max.   :7.000           E      : 9795         Max.   :11.00  
##  NA's   :29084           (Other):12307         NA's   :29084  
##  ListingCategory..numeric. BorrowerState  
##  Min.   : 0.000            CA     :14717  
##  1st Qu.: 1.000            TX     : 6842  
##  Median : 1.000            NY     : 6729  
##  Mean   : 2.774            FL     : 6720  
##  3rd Qu.: 3.000            IL     : 5921  
##  Max.   :20.000                   : 5515  
##                            (Other):67493  
##                     Occupation         EmploymentStatus
##  Other                   :28617   Employed     :67322  
##  Professional            :13628   Full-time    :26355  
##  Computer Programmer     : 4478   Self-employed: 6134  
##  Executive               : 4311   Not available: 5347  
##  Teacher                 : 3759   Other        : 3806  
##  Administrative Assistant: 3688                : 2255  
##  (Other)                 :55456   (Other)      : 2718  
##  EmploymentStatusDuration IsBorrowerHomeowner CurrentlyInGroup
##  Min.   :  0.00           False:56459         False:101218    
##  1st Qu.: 26.00           True :57478         True : 12719    
##  Median : 67.00                                               
##  Mean   : 96.07                                               
##  3rd Qu.:137.00                                               
##  Max.   :755.00                                               
##  NA's   :7625                                                 
##                     GroupKey                 DateCreditPulled 
##                         :100596   2013-12-23 09:38:12:     6  
##  783C3371218786870A73D20:  1140   2013-11-21 09:09:41:     4  
##  3D4D3366260257624AB272D:   916   2013-12-06 05:43:16:     4  
##  6A3B336601725506917317E:   698   2014-01-14 20:17:49:     4  
##  FEF83377364176536637E50:   611   2014-02-09 12:14:41:     4  
##  C9643379247860156A00EC0:   342   2013-09-27 22:04:54:     3  
##  (Other)                :  9634   (Other)            :113912  
##  CreditScoreRangeLower CreditScoreRangeUpper
##  Min.   :  0.0         Min.   : 19.0        
##  1st Qu.:660.0         1st Qu.:679.0        
##  Median :680.0         Median :699.0        
##  Mean   :685.6         Mean   :704.6        
##  3rd Qu.:720.0         3rd Qu.:739.0        
##  Max.   :880.0         Max.   :899.0        
##  NA's   :591           NA's   :591          
##         FirstRecordedCreditLine CurrentCreditLines OpenCreditLines
##                     :   697     Min.   : 0.00      Min.   : 0.00  
##  1993-12-01 00:00:00:   185     1st Qu.: 7.00      1st Qu.: 6.00  
##  1994-11-01 00:00:00:   178     Median :10.00      Median : 9.00  
##  1995-11-01 00:00:00:   168     Mean   :10.32      Mean   : 9.26  
##  1990-04-01 00:00:00:   161     3rd Qu.:13.00      3rd Qu.:12.00  
##  1995-03-01 00:00:00:   159     Max.   :59.00      Max.   :54.00  
##  (Other)            :112389     NA's   :7604       NA's   :7604   
##  TotalCreditLinespast7years OpenRevolvingAccounts
##  Min.   :  2.00             Min.   : 0.00        
##  1st Qu.: 17.00             1st Qu.: 4.00        
##  Median : 25.00             Median : 6.00        
##  Mean   : 26.75             Mean   : 6.97        
##  3rd Qu.: 35.00             3rd Qu.: 9.00        
##  Max.   :136.00             Max.   :51.00        
##  NA's   :697                                     
##  OpenRevolvingMonthlyPayment InquiriesLast6Months TotalInquiries   
##  Min.   :    0.0             Min.   :  0.000      Min.   :  0.000  
##  1st Qu.:  114.0             1st Qu.:  0.000      1st Qu.:  2.000  
##  Median :  271.0             Median :  1.000      Median :  4.000  
##  Mean   :  398.3             Mean   :  1.435      Mean   :  5.584  
##  3rd Qu.:  525.0             3rd Qu.:  2.000      3rd Qu.:  7.000  
##  Max.   :14985.0             Max.   :105.000      Max.   :379.000  
##                              NA's   :697          NA's   :1159     
##  CurrentDelinquencies AmountDelinquent   DelinquenciesLast7Years
##  Min.   : 0.0000      Min.   :     0.0   Min.   : 0.000         
##  1st Qu.: 0.0000      1st Qu.:     0.0   1st Qu.: 0.000         
##  Median : 0.0000      Median :     0.0   Median : 0.000         
##  Mean   : 0.5921      Mean   :   984.5   Mean   : 4.155         
##  3rd Qu.: 0.0000      3rd Qu.:     0.0   3rd Qu.: 3.000         
##  Max.   :83.0000      Max.   :463881.0   Max.   :99.000         
##  NA's   :697          NA's   :7622       NA's   :990            
##  PublicRecordsLast10Years PublicRecordsLast12Months RevolvingCreditBalance
##  Min.   : 0.0000          Min.   : 0.000            Min.   :      0       
##  1st Qu.: 0.0000          1st Qu.: 0.000            1st Qu.:   3121       
##  Median : 0.0000          Median : 0.000            Median :   8549       
##  Mean   : 0.3126          Mean   : 0.015            Mean   :  17599       
##  3rd Qu.: 0.0000          3rd Qu.: 0.000            3rd Qu.:  19521       
##  Max.   :38.0000          Max.   :20.000            Max.   :1435667       
##  NA's   :697              NA's   :7604              NA's   :7604          
##  BankcardUtilization AvailableBankcardCredit  TotalTrades    
##  Min.   :0.000       Min.   :     0          Min.   :  0.00  
##  1st Qu.:0.310       1st Qu.:   880          1st Qu.: 15.00  
##  Median :0.600       Median :  4100          Median : 22.00  
##  Mean   :0.561       Mean   : 11210          Mean   : 23.23  
##  3rd Qu.:0.840       3rd Qu.: 13180          3rd Qu.: 30.00  
##  Max.   :5.950       Max.   :646285          Max.   :126.00  
##  NA's   :7604        NA's   :7544            NA's   :7544    
##  TradesNeverDelinquent..percentage. TradesOpenedLast6Months
##  Min.   :0.000                      Min.   : 0.000         
##  1st Qu.:0.820                      1st Qu.: 0.000         
##  Median :0.940                      Median : 0.000         
##  Mean   :0.886                      Mean   : 0.802         
##  3rd Qu.:1.000                      3rd Qu.: 1.000         
##  Max.   :1.000                      Max.   :20.000         
##  NA's   :7544                       NA's   :7544           
##  DebtToIncomeRatio         IncomeRange    IncomeVerifiable
##  Min.   : 0.000    $25,000-49,999:32192   False:  8669    
##  1st Qu.: 0.140    $50,000-74,999:31050   True :105268    
##  Median : 0.220    $100,000+     :17337                   
##  Mean   : 0.276    $75,000-99,999:16916                   
##  3rd Qu.: 0.320    Not displayed : 7741                   
##  Max.   :10.010    $1-24,999     : 7274                   
##  NA's   :8554      (Other)       : 1427                   
##  StatedMonthlyIncome                    LoanKey       TotalProsperLoans
##  Min.   :      0     CB1B37030986463208432A1:     6   Min.   :0.00     
##  1st Qu.:   3200     2DEE3698211017519D7333F:     4   1st Qu.:1.00     
##  Median :   4667     9F4B37043517554537C364C:     4   Median :1.00     
##  Mean   :   5608     D895370150591392337ED6D:     4   Mean   :1.42     
##  3rd Qu.:   6825     E6FB37073953690388BC56D:     4   3rd Qu.:2.00     
##  Max.   :1750003     0D8F37036734373301ED419:     3   Max.   :8.00     
##                      (Other)                :113912   NA's   :91852    
##  TotalProsperPaymentsBilled OnTimeProsperPayments
##  Min.   :  0.00             Min.   :  0.00       
##  1st Qu.:  9.00             1st Qu.:  9.00       
##  Median : 16.00             Median : 15.00       
##  Mean   : 22.93             Mean   : 22.27       
##  3rd Qu.: 33.00             3rd Qu.: 32.00       
##  Max.   :141.00             Max.   :141.00       
##  NA's   :91852              NA's   :91852        
##  ProsperPaymentsLessThanOneMonthLate ProsperPaymentsOneMonthPlusLate
##  Min.   : 0.00                       Min.   : 0.00                  
##  1st Qu.: 0.00                       1st Qu.: 0.00                  
##  Median : 0.00                       Median : 0.00                  
##  Mean   : 0.61                       Mean   : 0.05                  
##  3rd Qu.: 0.00                       3rd Qu.: 0.00                  
##  Max.   :42.00                       Max.   :21.00                  
##  NA's   :91852                       NA's   :91852                  
##  ProsperPrincipalBorrowed ProsperPrincipalOutstanding
##  Min.   :    0            Min.   :    0              
##  1st Qu.: 3500            1st Qu.:    0              
##  Median : 6000            Median : 1627              
##  Mean   : 8472            Mean   : 2930              
##  3rd Qu.:11000            3rd Qu.: 4127              
##  Max.   :72499            Max.   :23451              
##  NA's   :91852            NA's   :91852              
##  ScorexChangeAtTimeOfListing LoanCurrentDaysDelinquent
##  Min.   :-209.00             Min.   :   0.0           
##  1st Qu.: -35.00             1st Qu.:   0.0           
##  Median :  -3.00             Median :   0.0           
##  Mean   :  -3.22             Mean   : 152.8           
##  3rd Qu.:  25.00             3rd Qu.:   0.0           
##  Max.   : 286.00             Max.   :2704.0           
##  NA's   :95009                                        
##  LoanFirstDefaultedCycleNumber LoanMonthsSinceOrigination   LoanNumber    
##  Min.   : 0.00                 Min.   :  0.0              Min.   :     1  
##  1st Qu.: 9.00                 1st Qu.:  6.0              1st Qu.: 37332  
##  Median :14.00                 Median : 21.0              Median : 68599  
##  Mean   :16.27                 Mean   : 31.9              Mean   : 69444  
##  3rd Qu.:22.00                 3rd Qu.: 65.0              3rd Qu.:101901  
##  Max.   :44.00                 Max.   :100.0              Max.   :136486  
##  NA's   :96985                                                            
##  LoanOriginalAmount          LoanOriginationDate LoanOriginationQuarter
##  Min.   : 1000      2014-01-22 00:00:00:   491   Q4 2013:14450         
##  1st Qu.: 4000      2013-11-13 00:00:00:   490   Q1 2014:12172         
##  Median : 6500      2014-02-19 00:00:00:   439   Q3 2013: 9180         
##  Mean   : 8337      2013-10-16 00:00:00:   434   Q2 2013: 7099         
##  3rd Qu.:12000      2014-01-28 00:00:00:   339   Q3 2012: 5632         
##  Max.   :35000      2013-09-24 00:00:00:   316   Q2 2012: 5061         
##                     (Other)            :111428   (Other):60343         
##                    MemberKey      MonthlyLoanPayment LP_CustomerPayments
##  63CA34120866140639431C9:     9   Min.   :   0.0     Min.   :   -2.35   
##  16083364744933457E57FB9:     8   1st Qu.: 131.6     1st Qu.: 1005.76   
##  3A2F3380477699707C81385:     8   Median : 217.7     Median : 2583.83   
##  4D9C3403302047712AD0CDD:     8   Mean   : 272.5     Mean   : 4183.08   
##  739C338135235294782AE75:     8   3rd Qu.: 371.6     3rd Qu.: 5548.40   
##  7E1733653050264822FAA3D:     8   Max.   :2251.5     Max.   :40702.39   
##  (Other)                :113888                                         
##  LP_CustomerPrincipalPayments LP_InterestandFees LP_ServiceFees   
##  Min.   :    0.0              Min.   :   -2.35   Min.   :-664.87  
##  1st Qu.:  500.9              1st Qu.:  274.87   1st Qu.: -73.18  
##  Median : 1587.5              Median :  700.84   Median : -34.44  
##  Mean   : 3105.5              Mean   : 1077.54   Mean   : -54.73  
##  3rd Qu.: 4000.0              3rd Qu.: 1458.54   3rd Qu.: -13.92  
##  Max.   :35000.0              Max.   :15617.03   Max.   :  32.06  
##                                                                   
##  LP_CollectionFees  LP_GrossPrincipalLoss LP_NetPrincipalLoss
##  Min.   :-9274.75   Min.   :  -94.2       Min.   : -954.5    
##  1st Qu.:    0.00   1st Qu.:    0.0       1st Qu.:    0.0    
##  Median :    0.00   Median :    0.0       Median :    0.0    
##  Mean   :  -14.24   Mean   :  700.4       Mean   :  681.4    
##  3rd Qu.:    0.00   3rd Qu.:    0.0       3rd Qu.:    0.0    
##  Max.   :    0.00   Max.   :25000.0       Max.   :25000.0    
##                                                              
##  LP_NonPrincipalRecoverypayments PercentFunded    Recommendations   
##  Min.   :    0.00                Min.   :0.7000   Min.   : 0.00000  
##  1st Qu.:    0.00                1st Qu.:1.0000   1st Qu.: 0.00000  
##  Median :    0.00                Median :1.0000   Median : 0.00000  
##  Mean   :   25.14                Mean   :0.9986   Mean   : 0.04803  
##  3rd Qu.:    0.00                3rd Qu.:1.0000   3rd Qu.: 0.00000  
##  Max.   :21117.90                Max.   :1.0125   Max.   :39.00000  
##                                                                     
##  InvestmentFromFriendsCount InvestmentFromFriendsAmount   Investors      
##  Min.   : 0.00000           Min.   :    0.00            Min.   :   1.00  
##  1st Qu.: 0.00000           1st Qu.:    0.00            1st Qu.:   2.00  
##  Median : 0.00000           Median :    0.00            Median :  44.00  
##  Mean   : 0.02346           Mean   :   16.55            Mean   :  80.48  
##  3rd Qu.: 0.00000           3rd Qu.:    0.00            3rd Qu.: 115.00  
##  Max.   :33.00000           Max.   :25000.00            Max.   :1189.00  
## 
## [1] 36 60 12
## 
##    12    36    60 
##  1614 87778 24545
## 
##              Cancelled             Chargedoff              Completed 
##                      5                  11992                  38074 
##                Current              Defaulted FinalPaymentInProgress 
##                  56576                   5018                    205 
##   Past Due (>120 days)   Past Due (1-15 days)  Past Due (16-30 days) 
##                     16                    806                    265 
##  Past Due (31-60 days)  Past Due (61-90 days) Past Due (91-120 days) 
##                    363                    313                    304

单变量绘图选择

绘制LoanOriginationDate直方图

由直方图可知,2008.11-2009.6间几乎没有网络贷款记录(期间只有2009.5有少量记录),可能是金融危机所致。

绘制LoanStatus组成比例柱状图

由柱状图可知,数据集中“Defaulted”客户群占30%多,“Completed”客户群约占70%左右。

绘制BorrowerRate直方图

由上图可发现,利率值集中在0.05-0.35之间,但是在0-0.05以及0.35-0.5之间也有少量可能是异常值的分布。

绘制CreditGrade(2009-07-01以前)柱状图

绘制ProsperRating(2009-07-01以后)柱状图

由上面两个柱状图的比较我们发现,调整信用等级之前,高等级与低等级客户分布均衡,调整之后,高等级的客户量总体有所降低(前三个等级中只有A级涨了约2.3%,但是“AA”级客户下降了5%以上),后三个低等级的客户量总体有所增加。

绘制ProperScore(2009-07-01以后)柱状图

风险评分总体趋势偏向高分数低风险的方向。

绘制ListingCategory柱状图

可以发现贷款类别30%无记录,在有记录的70%中,排名先后依次是债务合并、其它,商务,家庭改善等。

绘制BorrowerState柱状图

可以发现贷款人所在州10%无记录,在有记录的90%中,排名先后依次是“CA”,“FL”,“IL”,“GA”,“TX”,“NY”,除第一个占比13%以上外,其余几个州的贷款占比均在5%左右。

绘制EmploymentStatus柱状图

几乎一半的贷款客户是全职工作状态,30%左右是雇佣状态。说明没有稳定的还款来源,不太可能申请到贷款。

绘制EmploymentStatusDuration直方图

贷款大多数发生在雇佣状态持续时间较短的时候,少部分发生在雇佣状态持续时间长的情况下。

绘制IsBorrowerHomeowner柱状图

绘制TotalCreditLinespast7years直方图

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##    2.00   15.00   23.00   25.32   34.00  136.00     696

绝大部分数值在0-50间,均值是25.28,中位数是23,少量可能异常值分布在100以上。

绘制BankcardUtilization直方图

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   0.000   0.220   0.570   0.532   0.850   5.950    7600

已使用额度与总额度的比例绝大部分值在0-1.5之间,但是发现1.5-6间有可能是异常值的分布,其中比例越接近1,人数越多。

绘制DebtToIncomeRatio直方图

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##    0.00    0.13    0.20    0.29    0.30   10.01    4370

债务与收入比例大部分集中在0-1间,但是有少量有可能是异常值分布在1.5-10。

绘制IncomeRange柱状图

贷款人收入范围以中等收入为主,例如收入范围“$25,000-49,999”(约30%)和 “$50,000-74,999”(约23%)。高收入人群“$75,000-99,999”和“$100,000+”(比例各占约11%),高于低收入人群“$1-24,999”(约8%)以及无收入人群“$0”和“Not employed”(各占约1%)。

单变量分析

你的数据集结构是什么?

原始数据集结构较整洁,每条观察结果为一行,每个观察特性为一列。但是考虑到变量众多,重点提取以下变量组成新的待研究的数据集pl.sub: LoanOriginationDate CreditGrade Term LoanStatus BorrowerRate ProsperRating..Alpha. ProsperScore ListingCategory BorrowerState Occupation EmploymentStatus EmploymentStatusDuration IsBorrowerHomeowner TotalCreditLinespast7years BankcardUtilization DebtToIncomeRatio IncomeRange ### 你的数据集内感兴趣的主要特性有哪些? 我感兴趣的主要特性是贷款状态LoanStatus,我很想知道哪些因素会影响借贷状态“Completed”和“Defaulted”? ### 你认为数据集内哪些其他特征可以帮助你探索兴趣特点? 首先是借贷人员的人身特性,例如就业状态及时长(EmploymentStatus/EmploymentStatusDuration),债务与收入比例(DebtToIncomeRatio),收入范围(IncomeRange),是否有房子(IsBorrowerHomeowner),居住在哪个州(BorrowerState)等,其次是借贷人的行为特性,比如信用等级及评分(CreditGrade/ProsperRating/ProsperScore),借贷原因(ListingCategory),过去7年信用额度情况(TotalCreditLinespast7years),银行卡使用情况(BankcardUtilization)等,最后是一些贷款特性,例如贷款期限(Term),贷款利率(BorrowerRate)。上述提及的变量都可以帮助我探索兴趣点。

根据数据集内已有变量,你是否创建了任何新变量?

创建新列ListingCategory,将ListingCategory..numeric.中用数字代替的分类文字化,图形展示时一目了然。

在已经探究的特性中,是否存在任何异常分布?你是否对数据进行一些操作,如清洁、调整或改变数据的形式?如果是,你为什么会这样做?

可能的异常分布: 1.网络贷款生成日期异常分布(LoanOriginationDate) 2008.11-2009.6间几乎没有网络贷款记录(期间只有2009.5有少量记录),可能是金融危机所致; 2.贷款利率分布异常(BorrowerRate) 利率值集中在0.05-0.35之间,但是在0-0.05以及0.35-0.5之间也有少量值分布; 3.贷款人过去7年总信用额度(TotalCreditLinespast7years)可能有异常值 绝大部分数值在0-50间,均值是25.28,中位数是23,少量可能异常值分布在100以上; 4.银行卡使用率(BankcardUtilization)可能有异常值 已使用额度与总额度的比例不太可能远远大于1,所以大部分值在0-1.5之间,但是发现1.5-6间也有分布; 5.债务与收入比例(DebtToIncomeRatio)可能有异常值 债务与收入比例大部分集中在0-1间,但是有少量有可能是异常值分布在1.5-10;

对如下变量进行了调整: 1.LoanOriginationDate,从factor转换为datetime,因为这个变量本身就是日期属性,转换后便于后期分析; 2.Term,从int转换为factor,因为这个变量本身只包含三类值,转换后便于按照分类变量处理; 3.将变量’BorrowerState’,‘EmploymentStatus’中“”值设为NA,因为这2个变量都是factor,对于值 为“”的元素无法进行补充,所以采取视为空值的处理方法; 4.将factor变量’CreditGrade’,‘ProsperRating..Alpha.’,’IncomeRange’变成有序factor,这样做可以优化图标界面,有顺序感利于比较; 5.因为数据集中各贷款状态(LoanStatus)的样本数量悬殊较大,同时参考Proper对各贷款状态的说明(Past Due四个月后才进入Chargedoff状态),我将原先的12种状态划分为三种状态,即完成(包括Completed和FinalPaymentInProgress)、未完成(包括Defaulted和Chargedoff)和正在完成(包括Current和各种Past Due),分别标记为“Completed”,“Current”和“Defaulted”。另外,我们主要想研究什么因素影响客户群体按时还清贷款“Completed”还是拖欠贷款“Defaulted”?,而对于处在还款状态中的客户群,未来的还款结果未知,所以不在我们考虑范围之内,予以去除。同时将“Completed”状态标记为“1”,将“Defaulted”状态标记为“0”。最后,取消(Cancelled)状态只有5个样本,直接删除该等级。

创建了两个数据子集pl.pre2009和pl.post2009: 将数据集按照贷款生成日期(LoanOriginationDate)以2009年7月1日为节点分成两部分,因为在此日期前后采用的是不同的信用等级机制。2009年7月1日之前采用的是数据集中变量 CreditGrade,自2009年7月1日开始采用Prosper自己的信用评级和评分制度,这是我们研究的一个关键指标,所以一旦涉及信用评分,需要分离数据集分别研究。

双变量绘图选择

LoanStatus v.s. BorrowerRate

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.1350  0.1950  0.2011  0.2699  0.4975

’Defaulted’状态的贷款利率数值分布明显大于 ’Completed’状态,随着贷款利率增加,违约率逐渐增大。

LoanStatus v.s. Term

由spine图可知,36个月是两个贷款状态最热衷选择的期限,占比均在90%左右;其次是60个月,12个月是最不受欢迎的期限;而由柱状图可知,不同Term下贷款状态所占比例(违约率或完成率)中,12个月违约率最低,其次是36个月(约31%),60个月违约率最高(约34%)。

LoanStatus v.s. ProsperRating..Alpha.( After 2009.7)

由柱状图可知,“Defaulted” 状态的贷款中,信用差的占比远远大于信用好的;而“Completed”状态的贷款 中,信用差的占比却小于信用好的。 2009年7月以后,随着信用等级变差,可以明确看到违约率在上涨。 下面我想知道2009.7以前的信用等级与贷款状态是否由相同的规律,它们之间又有什么区别。

LoanStatus v.s. CreditGrade(Before 2009.7)

2009年7月以前,违约率(完成率)随信用等级的变化趋势同2009年7月以后的一致。通过对比2009年7月前后违约率与信用等级图表,可以发现二者变化趋势与我们预想的基本一致,即随着信用等级变差,违约率增加,但是2009年7月以后各信用等级违约率明显小于2009年7月以前相应等级的违约率,说明Prosper对客户信用等级标准做了有效的调整,也许提高了标准,从而降低了违约率,这是一个积极的变革。

LoanStatus v.s. ProsperScore

由上图可知,“Completed”贷款评分整体分布高于“Defaulted”,因为风险为评分越高,贷款风险越小,显然ProsperScore越低越有可能成为“Defaulted”贷款。下面做进一步探索。

由上图可知,随着风险评分增加,客户的违约率整体下降,其中评分为1风险最高,违约概率最大,风险评分在2-5时,违约率变化不明显,从6开始显著降低。

LoanStatus v.s. ListingCategory

由上图可知,“GreenLoans”违约率最高,接下来依次是“Household Expenses”,“Medical/Demtal”, “Business”, “Personal Loan”,“Baby&Adoption”,这些贷款类别的违约率均在30%以上;违约率最低的有“RV”,“Motorcycle”,“Engagement Ring”,违约率均在10%以下。

LoanStatus v.s. BorrowerState

由上图可知,“AL”州违约率最高,达到42%以上,接下来是“MO”(约38%)、“GA”和“ME”(均约37%)、“ID”和“IA”(均约36%),其它州违约率均在35%以下,其中有三个州的客户违约率最低都在20%以下,它们分别是“DC”(约16.5%)、“WY”(约17%)、“AK”(约19%)。

LoanStatus v.s. EmploymentStatus

由上图可知,贷款人雇佣状态不明确时(如“Not available”,Others“)更容易处于”Defaulted" 状态, 这两 个群体的违约率均高于42%;而“Employed”和“Part-time”的贷款客户更容易完成还款,违约率相对于其它雇佣状态较低,在25%左右。

LoanStatus v.s. EmploymentStatusDuration

由箱线图发现,“Completed”和“Defaulted”群体的EmploymentStatusDuration数据分布十分接近,所以我们大胆推测雇佣时间的长短对违约或完成情况没有太大影响。为了进一步验证,我们将EmploymentStatusDuration按月分区间,以月为研究单位研究雇佣状态持续时间对违约或完成贷款的影响。

由于某种雇佣状态持续时间越长,贷款人数越少,违约率较发散,同时结合实际情况,我们只研究雇佣状态持续20年及以内的情况后,发现雇佣状态持续时间对贷款的违约或完成没有显著影响。

LoanStatus v.s. IsBorrowerHomeowner

由上图可知,“Completed”群体中拥有房产的人的比例略高于“Defaulted”群体,但差距不明显,在5%之内。

LoanStatus v.s. TotalCreditLinespast7years

由箱线图发现,“Completed”和“Defaulted”群体的TotalCreditLinespast7years数据分布十分相似,所以我们大胆推测 TotalCreditLinespast7years对违约或完成情况没有太大影响。

LoanStatus v.s. BankcardUtilization

由箱线图似乎发现银行卡使用率高的人更可能违约,为了进一步验证,我们将BankcardUtilization分成5个区间探索,分别是(0,0.21],(0.22,0.56],(0.57,0.85],(0.86,5.95],(5.95+)。

和我们预期的一样,随着银行卡透支率的增加,违约率随之上升。当贷款人银行卡透支率高于85%时,进入“Defaulted”贷款状态的概率有35%。*

LoanStatus v.s. DebtToIncomeRatio

由箱线图似乎发现债务与收入比例较高的人更可能违约,为了进一步验证,我们将DebtToIncomeRatio分成5个区间探索,分别是(0,0.13],(0.14,0.2],(0.21,0.3],(0.31,10],(10.01+)。

当债务是收入的20%及以下时,对贷款状态无显著影响(违约率均约27%);当债务是收入的20%-30%之间时,违约率稍有增加,在30%左右;当债务与收入的比例突破30%后,那么该群体贷款的平均违约率高达37%左右了。

LoanStatus v.s.IncomeRange

可以发现未列明工资范围(“Not displayed”)和无职业无收入(“Not employed”,“$0”)的贷款人违约率最高, 分别是40%和39%左右。另外可以发现随着贷款人工资收入的增加,违约率呈梯度降低趋势。这与我们预期的一样,高收入群体的还款能力更好,所以违约率更低。

双变量分析

探讨你在这部分探究中观察到的一些关系。这些感兴趣的特性与数据集内其他特性有什么区别?

该部分双变量分析的核心方向是研究其它特性对贷款状态的影响,具体量化为对违约率的影响,这些特性都可能成为我所感兴趣特性的影响因素。 其中探讨了如下关系: 1.利用箱线图和柱状图分别研究了在两种贷款状态下贷款利率(BorrowRate)的数值分布及其对贷款违约率的影响 2.用spineplot展示了两种贷款状态下不同贷款期限的比例分布,同时通过柱状图研究了贷款期限(Term)
对违约率的影响; 3.通过柱状图分别研究了2009年7月前后信用等级(CreditGrade,ProsperRating)对贷款违约率的影响; 4.通过箱线图和柱状图分别研究了2009年9月以后风险评分(ProsperScore)的数值分布及其对贷款违约率的影响; 5.通过柱状图研究了贷款分类(ListingCategory)对贷款违约率的影响; 6.通过柱状图研究了贷款人所属州(BorrowerState)对贷款违约率的影响; 7.通过柱状图研究了贷款人雇佣状态(EmploymentStatus)对贷款违约率的影响; 8.通过箱线图和散点图(添加趋势线)分别研究了雇佣状态持续时间(EmploymentStatusDuration)的数值分布以 及其对贷款违约率的影响; 9.通过spineplot展示了两种贷款状态下贷款人有房产和没房产(IsBorrowerHomeOwner)各占的比例; 10.通过箱线图研究了贷款人过去7年贷款信用额度(TotalCreditLinespast7years)的数值分布; 11.通过箱线图和柱状图分别研究了银行卡透支率(BankcardUtilization)的数值分布及其对贷款违约率的影响; 12.通过箱线图和柱状图分别研究了银行卡透支率(BankcardUtilization)的数值分布及其对贷款违约率的影响; 13.通过箱线图和柱状图分别研究了债务与收入比(DebtToIncomeRatio)的数值分布及其对贷款违约率的影响; 14.通过柱状图研究了贷款人收入范围(IncomeRange)对贷款违约率的影响;

你是否观察到主要特性与其他特性之间的有趣关系?

我所观察到贷款状态与上述特性的有趣关系包括: 1.LoanStatus v.s. BorrowRate: 随着贷款利率增加,违约率逐渐增大;当贷款利率较高时,贷款人更容易处于违约状态。 2.LoanStatus v.s. Term: 36个月是两个贷款状态最热衷选择的期限,占比均在90%左右;其次是60个月,12个月是最不受欢迎的期限;三种 贷款期限下,12个月违约率最低(约5%),其次是36个月(约31%),60个月违约率最高 (约34%)。 3.LoanStatus v.s. CreditGrade/ProsperRating: 随着信用等级变差违约率逐渐上涨。但是2009年7月以后各信用等级违约率明显小于2009年7月以前相应等级的违 约率,说明Prosper对客户信用等级标准做了有效的调整,从而降低了违约率,这是一个积极的变革。 4.LoanStatus v.s. ProsperScore:
随着风险评分增加,客户的违约率整体下降,其中评分为1风险最高,违约概率最大,风险评分在2-5时,违约率 变化不明显,从6开始显著降低。 5.LoanStatus v.s. ListingCategory: “GreenLoans”违约率最高,接下来依次是“Household Expenses”,“Medical/Demtal”,“Business”,“Personal Loan”,“Baby&Adoption”,这些贷款类别的违约率均在30%以上;违约率最低的有“RV”,“Motorcycle”,“Engagement Ring”,是唯一违约率在10%以下的三个类别。 6.LoanStatus v.s. BorrowerState: ”AL“州违约率最高,达到42%以上,接下来是”MO“(约38%)、”GA“和”ME“(均约37%)、”ID“和”IA“(均约36%), 其它州违约率均在35%以下,其中有三个州的客户违约率最低都在20%以下,它们分别是”DC“(约16.5%)、”WY“(约1 7%)、”AK“(约19%)。 7.LoanStatus v.s. EmploymentStatus: 贷款人雇佣状态不明确时(如”Notavailable”和“Others”)更容易处于“Defaulted”状态,这两个群体的违约率均 高于42%;而“Employed”和“Part-time”的贷款客户更容易完成还款,违约率相对于其它雇佣状态较低,在25%左右 8.LoanStatus v.s. EmploymentStatusDuration: 由于某种雇佣状态持续时间越长,贷款人数越少,违约率较发散,同时结合实际情况,我们只研究雇佣状态持续 20年及以内的情况,发现雇佣状态持续时间对贷款的违约或完成没有显著影响。 9.LoanStatus v.s. IsBorrowerHomeOwner: “Completed”群体中拥有房产的人的比例略高于“Defaulted”群体,但差距不明显,在5%之内。 10.LoanStatus v.s. TotalCreditLinespast7years: “Completed”和“Defaulted”群体的TotalCreditLinespast7years数据分布十分相似,所以我们大胆推测
TotalCreditLinespast7years对违约或完成情况没有太大影响。 11.LoanStatus v.s. BankcardUtilization 随着银行卡透支率的增加,违约率随之上升。当贷款人银行卡透支率高于85%时,进入”Defaulted“贷款状态的概 率有35%。 12.LoanStatus v.s. DebtToIncomeRatio 当债务是收入的20%及以下时,对贷款状态无显著影响(违约率均约27%);当债务是收入的20%-30%之间时,违约 率稍有增加,在30%左右;当债务与收入的比例突破30%后,那么该群体贷款的平均违约率高达37%左右了。 13.LoanStatus v.s. IncomeRange 未列明工资范围(”Not displayed“)和无职业无收入(”Not employed“,”$0“) 的贷款人违约率最高,分别是40%和 39%左右。随着贷款人收入的增加,违约率呈梯度降低趋势。

你发现最强的关系是什么?

我发现与贷款状态(违约率)关系最强的是贷款利率(BorrowerRate),同时贷款人的信用等级(ProsperRating..Alpha.)、风险评分(ProsperScore)、雇佣状态(EmploymentStatus)、银行卡透支率(BankcardUtilization)及收入范围(IncomRange)都会影响贷款状态。

多变量绘图选择

LoanStatus v.s. BorrowerRate & Term

在所有利率水平中,12个月的贷款期限违约率明显低于36个月和60个月,基本集中在10%以下;当贷款利率处于低谷时(如0-0.14),60个月的平均违约率稍高于36个月(约5%);当贷款利率处于中间水平时(如0.15-0.27),36个月的平均违约率高于60个月(不超过5%);当贷款利率处于高峰时(如0.27-0.5),36个月和60个月的平均违约率几乎无差别。

LoanStatus v.s. BorrowerRate & ProsperRating(After 2009.7)

信用等级高的人更容易获得低利率的贷款;对于同一信用等级的贷款人来说,高利率的贷款更容易让其处于违约状态;对于同一利率水平而言,信用等级越差,越容易违约;总而言之,贷款利率越高、信用等级越差,越容易使贷款处于违约状态。

LoanStatus v.s. BorrowerRate & ProsperScore(After 2009.7)

风险评分高的人更容易获得低利率的贷款;对于同一风险评分的贷款人来说,高利率的贷款更容易让其处于违约状态;对于同一利率水平而言,风险评分越小,越容易违约;总而言之,贷款利率越高、风险评分越小,越容易使贷款处于违约状态。

LoanStatus v.s. ProsperRating & ProsperScore(after 2009.7)

从上图展示的不同的信用等级和风险评分所对应的平均违约率分布图可以发现,信用等级或风险评分较高的违约率小,信用等级和风险评分都居中的违约率较大,信用等级和风险评分都较低的违约率最大。

LoanStatus v.s. BorrowerRate & EmploymentStatus

不论处于什么利率水平,雇佣状态为“Employed”和“Part-time”的违约率相对于其它状态来说较小;当处于低利率水平时(例如小于0.2),个体(“Self-employed”)的违约率较高,而当处于高利率水平时(例如大于0.2),未列明雇佣状态的群体(“Not available”)的违约率显著高于其它群体。

LoanStatus v.s. BorrowerRate & IncomeRange

随着收入范围的增加和利率的降低,违约率逐渐降低。反之,收入越少、利率越高,那么贷款更容易处于“Defaulted”状态。

LoanStatus v.s. BorrowerRate & BankcardUtilization

总体趋势是贷款利率越高、银行卡透支率越高,那么贷款违约率就越大;在低利率区间0-0.14,随着银行卡透支率的增加,平均违约率逐渐上升;但在其它利率区间,低透支率反而拥有相对较高的平均违约率。

尝试建立线性模型

## 
## Call:
## lm(formula = LoanStatus ~ BorrowerRate + ProsperRating..Alpha. + 
##     ProsperScore + EmploymentStatus + IncomeRange + BankcardUtilization + 
##     Term, data = pl.post2009)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.0942 -0.5018  0.1614  0.3178  0.7576 
## 
## Coefficients: (1 not defined because of singularities)
##                                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                    0.767857   0.080534   9.535  < 2e-16 ***
## BorrowerRate                  -1.345766   0.114437 -11.760  < 2e-16 ***
## ProsperRating..Alpha..L        0.093645   0.029931   3.129  0.00176 ** 
## ProsperRating..Alpha..Q        0.004151   0.008030   0.517  0.60524    
## ProsperRating..Alpha..C       -0.021854   0.007736  -2.825  0.00473 ** 
## ProsperRating..Alpha.^4        0.001047   0.006985   0.150  0.88089    
## ProsperRating..Alpha.^5       -0.008003   0.006632  -1.207  0.22753    
## ProsperRating..Alpha.^6        0.009264   0.006489   1.428  0.15342    
## ProsperScore                   0.012897   0.001795   7.184 6.96e-13 ***
## EmploymentStatusFull-time      0.068208   0.006535  10.438  < 2e-16 ***
## EmploymentStatusNot employed   0.745779   0.473240   1.576  0.11506    
## EmploymentStatusOther         -0.110391   0.014993  -7.363 1.85e-13 ***
## EmploymentStatusPart-time      0.131375   0.028939   4.540 5.66e-06 ***
## EmploymentStatusRetired        0.022310   0.025992   0.858  0.39070    
## EmploymentStatusSelf-employed -0.022848   0.011893  -1.921  0.05472 .  
## IncomeRange.L                  0.612129   0.292835   2.090  0.03660 *  
## IncomeRange.Q                 -0.413289   0.258733  -1.597  0.11020    
## IncomeRange.C                  0.264192   0.167740   1.575  0.11527    
## IncomeRange^4                 -0.152938   0.078386  -1.951  0.05106 .  
## IncomeRange^5                  0.053941   0.024791   2.176  0.02957 *  
## IncomeRange^6                        NA         NA      NA       NA    
## BankcardUtilization            0.049372   0.008506   5.804 6.54e-09 ***
## Term.L                        -0.165828   0.010386 -15.967  < 2e-16 ***
## Term.Q                         0.006996   0.006024   1.161  0.24549    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.4213 on 27322 degrees of freedom
##   (131 observations deleted due to missingness)
## Multiple R-squared:  0.1071, Adjusted R-squared:  0.1064 
## F-statistic:   149 on 22 and 27322 DF,  p-value: < 2.2e-16

从上述线性拟合结果来看,影响贷款状态的因素中,有10.5%的因素来自上述因素。因为数据集涉及到的变量众多,都有可能影响到贷款的最终状态,而我们研究的变量有限,加之线性拟合的局限性,所以本结果不是一次成功的拟合。

多变量分析

探讨你在这部分探究中观察到的一些关系。通过观察感兴趣的特性,是否存在相互促进的特性?

在双变量探索中发现了最强的关系是贷款状态与贷款利率,以此为主线,加入其它变量进行多变量探索分析,我研究了如下的关系: 1.LoanStatus v.s. BorrowerRate & Term 在所有利率水平中,12个月的贷款期限违约率明显低于36个月和60个月,基本集中在10%以下;当贷款利率处于低谷时(如0-0.14),60个月的平均违约率稍高于36个月(约5%);当贷款利率处于中间水平时(如0.15-0.27),36个月的平均违约率高于60个月(不超过5%);当贷款利率处于高峰时(如0.27-0.5),36个月和60个月的平均违约率几乎无差别。

2.LoanStatus v.s. BorrowerRate & ProsperRating(这里只研究 2009.7以后) 发现信用等级高的人更容易获得低利率的贷款;贷款利率越高、信用等级越差,越容易使贷款处于违约状态。

3.LoanStatus v.s. BorrowerRate & ProsperScore(after 2009.7) 信用等级或风险评分较高的违约率较小,信用等级和风险评分都居中的违约率较大,信用等级和风险评分都较低的违约率最大。

4.LoanStatus v.s. BorrowerRate & EmploymentStatus 不论处于什么利率水平,雇佣状态为“Employed”和“Part-time”的违约率相对于其它状态来说较小;当处于低利率水平时(例如小于0.2),个体(“Self-employed”)的违约率较高,而当处于高利率水平时(例如大于0.2),未列明雇佣状态的群体(“Not available”)的违约率显著高于其它群体。

5.LoanStatus v.s. BorrowerRate & IncomeRange 随着收入范围的增加和利率的降低,违约率逐渐降低。反之,收入越少、利率越高,那么贷款更容易处于“Defaulted”状态。

6.LoanStatus v.s. BorrowerRate & BankcardUtilization 总体趋势是贷款利率越高、银行卡透支率越高,那么贷款违约率就越大;在低利率区间0-0.14,随着银行卡透支率的增加,平均违约率逐渐上升;但在其它利率区间,低透支率反而拥有相对较高的平均违约率。

相互促进的特性有: 1.贷款利率和信用等级; 2.贷款利率和风险评分; 3.信用等级和风险评分; 4.贷款利率和收入范围。

这些特性之间是否存在有趣或惊人的联系呢?

1.贷款利率和信用等级(信用等级越高,贷款利率越低,违约概率越低); 2.贷款利率和风险评分(风险评分越高,贷款利率越小,违约概率越低); 3.信用等级和风险评分(信用等级越高,风险评分越高,违约概率越低); 4.贷款利率和收入范围(收入范围越大,贷款利率越小,违约概率越低)。

选项:你是否创建过数据集的任何模型?讨论你模型的优缺点。

尝试过。从线性拟合结果来看,影响贷款状态的因素中,有10.5%的因素来自拟合时的变量。因为数据集涉及到的变量众多,都有可能影响到贷款的最终状态,而我们研究的变量有限,加之线性拟合的局限性,所以本结果不是一次成功的拟合。

定稿图与总结

绘图一

描述一

由直方图可知,2008.11-2009.6间几乎没有网络贷款记录(期间只有2009.5有少量记录),可能是金融危机所致,我们需要关注Prosper在这个空白时间段前后业务上有什么变化。

绘图二

描述二

’Defaulted’状态的贷款利率中位数明显大于 ’Completed’状态,随着贷款利率增加,平均违约率逐渐增大。

绘图三

描述三

同等利率条件下,随着收入范围的增加(从$0-$100,000+),“Defaulted”状态的贷款所占的比例逐渐有所下降(散点图蓝色点密度下降),同时各个收入范围所对应的平均违约率逐渐下降;可以发现在已列明收入范围的贷款中,利率越低、收入越高,则违约概率越小;反之,收入越少、利率越高,那么贷款更容易处于“Defaulted”状态。

反思

Prosper 贷款数据集包括了2005-11到2014-03期间113,937 项贷款,每项贷款有 81 个变量。我首先通过变量字典了解各个变量所代表的具体含义,然后在进一步熟悉金融贷款常识的基础上,寻找并确定自己感兴趣的问题,那就是探索哪些因素会影响借贷状态(这里主要指"Defaulted"和"Completed"两种状态),我从中选择了自认为重要的16个变量,研究这些变量对贷款状态(LoanStatus)的影响。由于知识面和时间有限,16个变量的选择和分析不可避免有失完整性及合理性,所以所得结论仅用于此项目。
所选取的变量包括三个层面,借贷人员的人身特性,例如就业状态及时长(EmploymentStatus/EmploymentStatusDuration),债务与收入比例(DebtToIncomeRatio),收入范围(IncomeRange),是否有房子(IsBorrowerHomeowner),居住在哪个州(BorrowerState)等,其次是借贷人的行为特性,比如信用等级及风险评分(CreditGrade/ProsperRating/ProsperScore),借贷原因(ListingCategory),过去7年信用额度情况(TotalCreditLinespast7years),银行卡使用情况(BankcardUtilization)等,最后是一些贷款特性,例如贷款期限(Term),贷款利率(BorrowerRate),我认为上述提及的变量都可以帮助我探索前面提到的问题。
通过单变量和双变量阶段的分析,我发现与贷款状态(违约率)关系最强的是贷款利率(BorrowerRate),贷款利率越高,那么该笔贷款违约的概率就越大,这也符合我们的常识。所以多变量分析阶段,在贷款状态和利率两个变量的基础上,同时结合其它关系较强的影响贷款状态(违约率)的变量进行了进一步探索,这些变量包括贷款人的信用等级(ProsperRating..Alpha.)、风险评分(ProsperScore)、收入范围(IncomRange)、雇佣状态(EmploymentStatus)、银行卡透支率(BankcardUtilization)及贷款期限(Term)。结果表明信用等级和风险评分高的更容易获得低利率的贷款,从而更容易使贷款处于"Completed"状态;在列明收入范围的贷款中,利率越高,收入越低,贷款违约率降高,反之贷款违约率变低。遗憾的是,贷款期限、雇佣状态以及银行卡透支率并没有随着利率水平的变化而出现有规律的变化,它们的变化趋势依赖于不同的利率水平区间。
最后我尝试过建立线性模型。从线性拟合结果来看,影响贷款状态的因素中,有10.5%的因素来自拟合时的变量。因为数据集涉及到的变量众多,都有可能影响到贷款的最终状态,而我们研究的变量有限,加之线性拟合的局限性,所以本结果不是一次成功的拟合,今后还需要学习其它建模方法后进一步优化结果。未来应多进行逻辑思维训练,提升分析能力,从对不同类型数据的理解和处理入手,通过创建有效的分析图形,充分探索数据集。